One Hot Encoding



In [1]:

    
dd <- read.table(text="
   RACE        AGE.BELOW.21     CLASS
   HISPANIC          0          A
   ASIAN             1          A
   HISPANIC          1          D
   CAUCASIAN         1          B",
  header=TRUE)



In [2]:

    
dd









    Out[2]:





RACE AGE.BELOW.21 CLASS

	1 HISPANIC 0 A
	2 ASIAN 1 A
	3 HISPANIC 1 D
	4 CAUCASIAN 1 B



In [6]:

    
with(dd,
       data.frame(model.matrix(~RACE-1,dd),
                  AGE.BELOW.21,CLASS))









    Out[6]:





RACEASIAN RACECAUCASIAN RACEHISPANIC AGE.BELOW.21 CLASS

	1 0 0 1 0 A
	2 1 0 0 1 A
	3 0 0 1 1 D
	4 0 1 0 1 B

Including all levels



In [8]:

    
cbind(with(dd, model.matrix(~ RACE + 0)), with(dd, model.matrix(~ CLASS + 0)))









    Out[8]:





RACEASIAN RACECAUCASIAN RACEHISPANIC CLASSA CLASSB CLASSD

	1 0 0 1 1 0 0
	2 1 0 0 1 0 0
	3 0 0 1 0 0 1
	4 0 1 0 0 1 0

One more approach



In [9]:

    
library(caret)









    



Loading required package: lattice
Loading required package: ggplot2
Warning message:
: package ‘ggplot2’ was built under R version 3.2.4



In [12]:

    
trainDummy <- dummyVars(AGE.BELOW.21 ~. , data=dd)



In [14]:

    
predict(trainDummy, dd)









    Out[14]:





RACE.ASIAN RACE.CAUCASIAN RACE.HISPANIC CLASS.A CLASS.B CLASS.D

	1 0 0 1 1 0 0
	2 1 0 0 1 0 0
	3 0 0 1 0 0 1
	4 0 1 0 0 1 0

Exercise

Do one hot encoding on the bank marketing dataset.
Run logistic regression on that
Compute accuracy metrics. Do you see any difference?
Does one hot encoding impact decision tree? Discuss



In [ ]:



In [ ]: